Diff-Instruct con recompensa difundida: hacia un generador de un solo paso con aprendizaje por refuerzo basado en principios
Diff-Instruct con recompensa difundida: aprende cómo este enfoque de RL basado en principios logra un generador de un solo paso eficiente y de alta calidad.